home *** CD-ROM | disk | FTP | other *** search
/ Tech Arsenal 1 / Tech Arsenal (Arsenal Computer).ISO / tek-04 / mawk10.zip / REXP2.C < prev    next >
C/C++ Source or Header  |  1991-10-05  |  10KB  |  347 lines

  1.  
  2. /********************************************
  3. rexp2.c
  4. copyright 1991, Michael D. Brennan
  5.  
  6. This is a source file for mawk, an implementation of
  7. the AWK programming language.
  8.  
  9. Mawk is distributed without warranty under the terms of
  10. the GNU General Public License, version 2, 1991.
  11. ********************************************/
  12.  
  13. /*$Log:    rexp2.c,v $
  14.  * Revision 3.5  91/08/13  09:10:15  brennan
  15.  * VERSION .9994
  16.  * 
  17.  * Revision 3.4  91/08/08  07:53:34  brennan
  18.  * work around for turboC realloc() bug
  19.  * 
  20.  * Revision 3.4  91/08/07  07:10:47  brennan
  21.  * work around for TurboC realloc() bug
  22.  * 
  23.  * Revision 3.3  91/08/04  15:45:57  brennan
  24.  * minor change for large model dos
  25.  * 
  26.  * Revision 3.2  91/06/10  16:18:14  brennan
  27.  * changes for V7
  28.  * 
  29.  * Revision 3.1  91/06/07  10:33:25  brennan
  30.  * VERSION 0.995
  31.  * 
  32.  * Revision 1.8  91/06/05  09:01:33  brennan
  33.  * changes to RE_new_run_stack
  34.  * 
  35.  * Revision 1.7  91/05/31  10:56:02  brennan
  36.  * stack_empty hack for DOS large model
  37.  * 
  38. */
  39.  
  40.  
  41.  
  42. /*  test a string against a machine   */
  43.  
  44. #include "rexp.h"
  45.  
  46. #define  STACKGROWTH    16
  47.  
  48. /* statics */
  49. static RT_STATE *PROTO(slow_push,(RT_STATE *,STATE*,char*,int)); 
  50.  
  51. /*  check that a bit is on  */
  52. #define  ison(b,x) ( (b)[(x)>>3] & ( 1 << ((x)&7)  ))
  53.  
  54.  
  55. RT_STATE *RE_run_stack_base; 
  56. RT_STATE *RE_run_stack_limit ;
  57.  
  58. /* Large model DOS segment arithemetic breaks the current stack.
  59.    This hack fixes it without rewriting the whole thing, 5/31/91 */
  60. RT_STATE *RE_run_stack_empty ;
  61.  
  62. /* for statistics and debug */
  63. static RT_STATE *stack_max ; 
  64.  
  65. void RE_run_stack_init()
  66. { if ( !RE_run_stack_base )
  67.   {
  68.     RE_run_stack_base = (RT_STATE *)
  69.                  RE_malloc(sizeof(RT_STATE) * STACKGROWTH ) ;
  70.     RE_run_stack_limit = RE_run_stack_base + STACKGROWTH ;
  71.     RE_run_stack_empty = stack_max = RE_run_stack_base-1 ;
  72.   }
  73. }
  74.  
  75. /* sometimes during REmatch(), this stack can grow pretty large.
  76.    In real life cases, the back tracking usually fails. Some
  77.    work is needed here to improve the algorithm.
  78.    I.e., figure out how not to stack useless paths.
  79. */
  80.  
  81. RT_STATE  *RE_new_run_stack()
  82. { int newsize = (RE_run_stack_limit - RE_run_stack_base) + STACKGROWTH ;
  83.  
  84. #ifdef  LMDOS   /* large model DOS */
  85.   /* have to worry about overflow on multiplication (ugh) */
  86.   if ( newsize >= 4096 ) RE_run_stack_base = (RT_STATE*) 0 ;
  87.   else
  88. #endif
  89.  
  90. #ifdef  __TURBOC__  
  91. /* turbo C's realloc() screws up when running out of mem  */
  92.   { RT_STATE *temp = (RT_STATE*)malloc(SIZE_T(newsize*sizeof(RT_STATE))) ;
  93.     if ( temp ) (void)memcpy(temp,RE_run_stack_base,
  94.         SIZE_T((newsize-STACKGROWTH)*sizeof(RT_STATE))) ;
  95.     free(RE_run_stack_base) ;
  96.     RE_run_stack_base = temp ;
  97.   }
  98. #else  /* normal case */
  99.   RE_run_stack_base = (RT_STATE *) realloc( RE_run_stack_base ,
  100.           SIZE_T(newsize * sizeof(RT_STATE)) ) ;
  101. #endif
  102.  
  103.   if ( ! RE_run_stack_base )
  104.   { fprintf(stderr, "out of memory for RE run time stack\n") ;
  105.     /* this is pretty unusual, I've only seen it happen on
  106.        weird input to REmatch() under 16bit DOS , the same
  107.        situation worked easily on 32bit machine.  */
  108.     exit(100) ;
  109.   }
  110.  
  111.   RE_run_stack_limit = RE_run_stack_base + newsize ;
  112.   RE_run_stack_empty = RE_run_stack_base - 1 ;
  113.   return  stack_max = RE_run_stack_base + newsize - STACKGROWTH ;
  114. }
  115.  
  116. static RT_STATE *slow_push(sp, m, s, u)
  117.   RT_STATE *sp ;
  118.   STATE *m ;
  119.   char *s ;
  120.   int   u ;
  121.   if ( sp > stack_max )
  122.      if ( (stack_max = sp) == RE_run_stack_limit )
  123.              sp = RE_new_run_stack() ;
  124.  
  125.   sp->m = m ; sp->s = s ; sp->u = u ;
  126.   return sp ;
  127. }
  128.  
  129. #ifdef   DEBUG
  130. void  print_max_stack(f)
  131.   FILE *f ;
  132. { fprintf(f, "stack_max = %d\n", stack_max-RE_run_stack_base+1) ; }
  133. #endif
  134.  
  135. #ifdef   DEBUG
  136. #define  push(mx,sx,ux)   stackp = slow_push(++stackp, mx, sx, ux)
  137. #else
  138. #define  push(mx,sx,ux)   if (++stackp == RE_run_stack_limit)\
  139.                                 stackp = slow_push(stackp,mx,sx,ux) ;\
  140.                           else\
  141.                           { stackp->m=mx;stackp->s=sx;stackp->u=ux;}
  142. #endif
  143.  
  144.  
  145. #define   CASE_UANY(x)  case  x + U_OFF :  case  x + U_ON
  146.  
  147. /* test if str ~ /machine/
  148. */
  149.  
  150. int  REtest( str, machine)
  151.   char *str ;
  152.   VOID *machine ;
  153. { register STATE *m = (STATE *) machine ;
  154.   register char *s = str ;
  155.   register RT_STATE *stackp ;
  156.   int u_flag ;
  157.   char *str_end ;
  158.   char *ts ; /*convenient temps */
  159.   STATE *tm ;
  160.  
  161.   /* handle the easy case quickly */
  162.   if ( (m+1)->type == M_ACCEPT && m->type == M_STR )
  163.         return  (int ) str_str(s, m->data.str, m->len) ;
  164.   else
  165.   { u_flag = U_ON ; str_end = (char *) 0 ;
  166.     stackp = RE_run_stack_empty ;
  167.     goto  reswitch ;
  168.   }
  169.  
  170. refill :
  171.   if ( stackp == RE_run_stack_empty )  return  0 ;
  172.   m = stackp->m ;
  173.   s = stackp->s ;
  174.   u_flag  = stackp-- -> u ;
  175.  
  176.  
  177. reswitch  :
  178.  
  179.   switch( m->type + u_flag )
  180.   {
  181.     case M_STR + U_OFF + END_OFF :
  182.             if ( strncmp(s, m->data.str, SIZE_T(m->len)) ) goto refill ;
  183.             s += m->len ;  m++ ;
  184.             goto reswitch ;
  185.  
  186.     case M_STR + U_OFF + END_ON :
  187.             if ( strcmp(s, m->data.str) ) goto refill ;
  188.             s += m->len ;  m++ ;
  189.             goto reswitch ;
  190.  
  191.     case M_STR + U_ON + END_OFF :
  192.             if ( !(s = str_str(s, m->data.str, m->len)) ) goto refill ;
  193.             push(m, s+1, U_ON) ;
  194.             s += m->len ; m++ ; u_flag = U_OFF ;
  195.             goto reswitch ;
  196.  
  197.     case M_STR + U_ON + END_ON :
  198.             if ( !str_end )  str_end = s + strlen(s) ;
  199.             ts = str_end - m->len ;
  200.             if (ts < s || memcmp(ts,m->data.str,SIZE_T(m->len+1))) goto refill ;
  201.             s = str_end ; m++ ; u_flag = U_OFF ;
  202.             goto reswitch ;
  203.  
  204.     case M_CLASS + U_OFF + END_OFF :
  205.             if ( !ison(*m->data.bvp, s[0] ) )  goto refill ;
  206.             s++ ; m++ ;
  207.             goto reswitch ;
  208.  
  209.     case M_CLASS + U_OFF + END_ON :
  210.             if ( s[1] || !ison(*m->data.bvp,s[0]) )  goto refill ;
  211.             s++ ; m++ ;
  212.             goto reswitch ;
  213.  
  214.     case M_CLASS + U_ON + END_OFF :
  215.             while ( !ison(*m->data.bvp,s[0]) )
  216.                 if ( s[0] == 0 )  goto refill ;
  217.                 else  s++ ;
  218.             s++ ;
  219.             push(m, s, U_ON) ;
  220.             m++ ; u_flag = U_OFF ;
  221.             goto reswitch ;
  222.  
  223.     case M_CLASS + U_ON + END_ON :
  224.             if ( ! str_end )  str_end = s + strlen(s) ;
  225.             if ( ! ison(*m->data.bvp, str_end[-1]) ) goto refill ;
  226.             s = str_end ; m++ ; u_flag = U_OFF ;
  227.             goto reswitch ;
  228.  
  229.     case M_ANY + U_OFF + END_OFF :
  230.             if ( s[0] == 0 )  goto refill ;
  231.             s++ ; m++ ;
  232.             goto  reswitch ;
  233.  
  234.     case M_ANY + U_OFF + END_ON :
  235.             if ( s[0] == 0 || s[1] != 0 )  goto refill ;
  236.             s++ ; m++ ;
  237.             goto reswitch ;
  238.  
  239.     case M_ANY + U_ON + END_OFF :
  240.             if ( s[0] == 0 )  goto refill ;
  241.             s++ ; 
  242.             push(m, s, U_ON) ;
  243.             m++ ; u_flag = U_OFF ;
  244.             goto  reswitch ;
  245.  
  246.     case M_ANY + U_ON + END_ON :
  247.             if ( s[0] == 0 )  goto refill ;
  248.             if ( ! str_end )  str_end = s + strlen(s) ;
  249.             s = str_end ; m++ ; u_flag = U_OFF ;
  250.             goto reswitch ;
  251.  
  252.     case  M_START + U_OFF + END_OFF :
  253.     case  M_START + U_ON  + END_OFF :
  254.             if ( s != str )  goto  refill ;
  255.             m++ ;  u_flag = U_OFF ;
  256.             goto  reswitch ;
  257.  
  258.     case  M_START + U_OFF + END_ON :
  259.     case  M_START + U_ON  + END_ON :
  260.             if ( s != str || s[0] != 0 )  goto  refill ;
  261.             m++ ; u_flag = U_OFF ;
  262.             goto  reswitch ;
  263.  
  264.     case  M_END + U_OFF  :
  265.             if ( s[0]  != 0 )  goto  refill ;
  266.             m++ ; goto reswitch ;
  267.  
  268.     case  M_END + U_ON :
  269.             s += strlen(s) ;
  270.             m++ ; u_flag = U_OFF ;
  271.             goto reswitch ;
  272.  
  273.     CASE_UANY(M_U) :
  274.             u_flag = U_ON ; m++ ;
  275.             goto reswitch ;
  276.  
  277.     CASE_UANY(M_1J) :
  278.             m += m->data.jump ;
  279.             goto reswitch ;
  280.  
  281.     CASE_UANY(M_2JA) : /* take the non jump branch */
  282.             /* don't stack an ACCEPT */
  283.             if ( (tm = m + m->data.jump)->type == M_ACCEPT ) return 1 ;
  284.             push(tm, s, u_flag) ;
  285.             m++ ;
  286.             goto reswitch ;
  287.  
  288.     CASE_UANY(M_2JB) : /* take the jump branch */
  289.             /* don't stack an ACCEPT */
  290.             if ( (tm = m + 1)->type == M_ACCEPT ) return 1 ;
  291.             push(tm, s, u_flag) ;
  292.             m += m->data.jump ;
  293.             goto reswitch ;
  294.  
  295.     CASE_UANY(M_ACCEPT) :
  296.             return 1 ;
  297.  
  298.     default :
  299.             RE_panic("unexpected case in REtest") ;
  300.   }
  301. }
  302.  
  303.   
  304.  
  305. #ifdef  MAWK
  306.  
  307. char *is_string_split( p, lenp )
  308.   register STATE *p ;
  309.   unsigned *lenp ;
  310. {
  311.   if ( p[0].type == M_STR && p[1].type == M_ACCEPT )
  312.   { *lenp = p->len ;
  313.     return  p->data.str ;
  314.   }
  315.   else   return  (char *) 0 ;
  316. }
  317. #else /* mawk provides its own str_str */
  318.  
  319. char *str_str(target, key, klen)
  320.   register char *target ;
  321.   register char *key ;
  322.   unsigned klen ;
  323. { int c = key[0] ;
  324.  
  325.   switch( klen )
  326.   { case 0 :  return (char *) 0 ;
  327.     case 1 :  return strchr(target, c) ;
  328.     case 2 :  
  329.               while ( target = strchr(target, c) )
  330.                     if ( target[1] == key[1] ) return target ;
  331.                     else target++ ;
  332.               break ;
  333.  
  334.     default :
  335.               klen-- ; key++ ;
  336.               while ( target = strchr(target, c) )
  337.                     if (memcmp(target+1,key,SIZE_T(klen)) == 0) return target ;
  338.                     else target++ ;
  339.               break ;
  340.   }
  341.   return (char *) 0 ;
  342. }
  343.               
  344.  
  345. #endif  /* MAWK */
  346.